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RÉSUMÉ. Avec le développement des bases de données en général et des entrepôts de données 
(data warehouses) en particulier, il est devenu primordial de réduire la fonction d'administra- 
tion de base de données. L'idée d'utiliser des techniques de fouille de données (data mining) 
pour extraire des connaissances utiles des données elles-mêmes pour leur administration est 
avancée depuis quelques années. Pourtant, peu de travaux de recherche ont été entrepris. L'ob- 
jectif de cette étude est de rechercher une façon d 'extraire des données stockées des connais- 
sances utilisables pour appliquer de manière automatique des techniques d' optimisation des 
performances, et plus particulièrement d'indexation. Nous avons réalisé un outil qui effectue 
une recherche de motifs fréquents sur une charge donnée afin de calculer une configuration 
d'index permettant d' optimiser le temps d'accès aux données. Les expérimentations que nous 
avons menées ont montré que les configurations d'index générées par notre outil permettent des 
gains de performance de l'ordre de 15% à 25% sur une base et un entrepôt de données tests. 

ABSTRACT. With the wide development of databases in gênerai and data warehouses in partic- 
ular, it is important to reduce the tasks that a database administrator must perform manually. 
The idea of using data mining techniques to extract useful knowledge for administration front 
the data themselves lias existed for some years. However, little research has been achieved. 
The aim of this study is to search for a way of extracting useful knowledge from stored data 
to automatically apply performance optimization techniques, and more particularly indexing 
techniques. We have designed a tool that extracts fréquent itemsets from a given workload to 
compute an index configuration that helps optimizing data access time. The experiments we 
performed showed that the index configurations generated by our tool allowed performance 
gains of 15% to 25% on a test database and a test data warehouse. 

MOTS-CLÉS : Bases et entrepôts de données, Auto-indexation, Data mining, Motifs fréquents. 
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1. Introduction 

L'utilisation courante de bases de données requiert un administrateur qui a pour 
rôle principal la gestion des données au niveau logique (définition de schéma) et phy- 
sique (fichiers et disques de stockage), ainsi que l'optimisation des performances de 
l'accès aux données. Avec le déploiement à grande échelle des systèmes de gestion de 
bases de données (SGBD), minimiser la fonction d'administration est devenu indis- 
pensable OWEI 021 . 

L'une des tâches importantes d'un administrateur est la sélection d'une structure 
physique appropriée pouvant améliorer les performances du système en minimisant 
les temps d'accès aux données [FIN 88]. Les index sont des structures physiques per- 
mettant un accès direct aux données. Le travail d'optimisation des performances de 
l'administrateur se porte en grande partie sur la sélection d'index et de vues matériali- 
sées lAGR 01L Ces structures jouent un rôle particulièrement important dans les bases 
de données décisionnelles (BDD) tels que les entrepôts de données, qui présentent une 
volumétrie très importante et sont interrogés par des requêtes complexes. 

Depuis quelques années, l'idée est avancée d'utiliser les techniques de fouille de 
données (data mining) pour extraire des connaissances utiles des données elles-même 
pour leur administration |CHA 98]. Cependant, peu de travaux de recherches ont été 
entrepris dans ce domaine jusqu'ici. C'est pourquoi nous avons conçu et réalisé un ou- 
til qui utilise la fouille de données pour proposer une sélection (configuration) d'index 
pertinente. 

Partant de l'hypothèse que l'utilité d'un index est fortement corrélée à la fréquence 
de l'utilisation des attributs correspondants dans l'ensemble des requêtes d'une charge 
donnée, la recherche de motifs fréquents BAGR 9311 nous a semblé appropriée pour 
mettre en évidence cette corrélation et faciliter le choix des index à créer. L'outil que 
nous présentons dans cet article exploite le journal des transactions (ensemble de re- 
quêtes résolues par le SGBD) pour proposer une configuration d'index. 

2. Conclusions et perspectives 

Nous avons présenté dans cet article une nouvelle approche pour la sélection auto- 
matique d'index dans un SGBD. L'originalité de notre travail repose sur l'extraction 
de motifs fréquents pour déterminer une configuration d'index. Nous nous basons 
en effet sur l'intuition que l'importance d'un attribut à indexer est fortement corré- 
lée avec sa fréquence d'apparition dans les requêtes présentes dans une charge. Par 
ailleurs, l'utilisation d'un algorithme d'extraction de fréquents tel que Close IIPAS 991 
nous permet de générer des index mono-attribut et multi-attributs à la volée, sans avoir 
à mettre en œuvre un processus itératif permettant de créer successivement des index 
multi-attributs de plus en plus gros à partir d'un ensemble d'index mono -attribut. 

Nos premiers résultats expérimentaux montrent que notre technique permet effec- 
tivement d' améliorer le temps de réponse de 20% à 25 % pour une charge décisionnelle 
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appliquée à une base de données relationnelle (banc d'essais TPC-R) |Tra99|. Nous 
avons par ailleurs proposé deux stratégies effectuer une sélection parmi les index can- 
didats : la première crée systématiquement tous les index candidats et la deuxième 
ne crée que les index associés à des tables dites volumineuses. La deuxième straté- 
gie apporte une meilleure amélioration car elle propose un compromis entre l'espace 
occupé par les index (le nombre d'index créés est limité à ceux qui sont définis sur 
des attributs de tables volumineuses) et l'intérêt de la création d'un index (il est peu 
intéressant de créer un index sur une petite table). 

Nous avons également réalisé des tests sur un petit magasin de données d'acci- 
dentologie [ AOU 02 1 auquel nous avons appliqué une charge décisionnelle ad hoc. Le 
gain en temps de réponse, de l'ordre de 14%, est moins important que dans le cas 
de TPC-R. Cela peut être expliqué par le fait que les index créés par défaut par SQL 
Server sont des variantes des B-arbres et non des index bitmap et des index de jointure 
en étoile, qui seraient plus adaptés pour un entrepôt de données [O'N 95i lO'N 97l . 

Notre travail démontre que l'idée d'utiliser des techniques de fouille de données 
pour F auto-administration des SGBD est prometteuse. Il n'est cependant qu'une pre- 
mière approche et ouvre de nombreuses perspectives de recherche. Une première voie 
consisterait à améliorer la sélection des index en concevant des stratégies plus élabo- 
rées que l'utilisation exhaustive d'une configuration ou l'exploitation de renseigne- 
ments relativement basiques concernant la taille des tables. Un modèle de coût plus 
fin au regard des caractéristiques des tables (autres que la taille), ou encore une straté- 
gie de pondération des requêtes de la charge (par type de requête : sélection ou mise 
à jour), pourraient nous aider dans cette optique. L'utilisation d'autres méthodes de 
fouille de données non-supervisées telles que le regroupement (clustering) pourraient 
également fournir des ensembles de fréquents moins volumineux. 

Par ailleurs, il paraît indispensable de continuer à tester notre méthode pour mieux 
évaluer la surcharge qu'elle engendre pour le système, que ce soit en terme de généra- 
tion des index ou de leur maintenance. Il est notamment nécessaire de l'appliquer pour 
des entrepôts de données de grande taille et en tirant partie d'index adaptés. Il serait 
également très intéressant de la comparer de manière plus systématique avec l'outil 
IST développé par Microsoft |CHA 97 1, que ce soit par des calculs de complexité des 
heuristiques de génération de configurations d'index (surcharge) ou des expérimen- 
tations visant à évaluer la qualité de ces configurations (gain en temps de réponse et 
surcharge due à la maintenance des index). 

Finalement, étendre ou coupler notre approche à d'autres techniques d'optimisa- 
tion des performances (vues matérialisées, gestion de cache, regroupement physique, 
etc.) constitue également une voie de recherche prometteuse. En effet, dans le contexte 
des entrepôts de données, c'est principalement en conjonction avec d'autres structures 
physiques (principalement les vues matérialisées) que l'indexation permet d'obtenir 
des gains de performance significatifs flGUP 991 IÀGR 001 lÀGRÏÏTl . 
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